[Day9] 網路請求與伺服器回應原理

2024 iThome 鐵人賽

DAY 2

自我挑戰組

30天認識爬蟲系列第 9 篇

16th鐵人賽

eyeyeyeye

2024-09-24 22:55:05

378 瀏覽

分享至

今天是第九天，在使用爬蟲之前，理解網路請求和伺服器回應的原理非常重要。其實這就是爬蟲運作的核心機制。每當我們打開一個網頁，都是在向伺服器發送一個請求，而伺服器則回傳我們所看到的頁面。

什麼是請求？
當你在瀏覽器輸入網址，瀏覽器會發送一個HTTP請求給對應的伺服器。
請求有很多種，但常見的有兩類：GET和POST。

GET請求：最常見的一種請求，它用來向伺服器索取資料。例如，打開某個網站首頁，瀏覽器就是發送了一個GET請求來取得這個頁面的內容。
POST請求：這類請求則用來提交數據給伺服器，在一個網站上提交表單或登入帳號時，會用到POST請求。
什麼是伺服器回應？

當伺服器收到請求後，它會根據你的請求給出回應，這個回應包含了你要的資料，比如網頁的HTML、CSS、JavaScript等。伺服器回應通常會伴隨一個狀態碼，這些狀態碼告訴我們請求是否成功，或發生了什麼問題：
200 OK：請求成功，伺服器正常回傳資料。
404 Not Found：找不到資源，這可能是網址錯誤或頁面已經被刪除。
500 Internal Server Error：伺服器發生錯誤，無法處理請求。

每個請求不只包含網址，還有一些「隱藏的」資訊叫做標頭(headers）。標頭裡面包含了關於請求的細節，如瀏覽器類型、語言、以及cookie等。爬蟲通常會模擬這些請求標頭，讓伺服器認為你是人類使用的正常瀏覽器，而不是自動化程式。

爬蟲如何運作？
當我們寫一個爬蟲時，實際上是讓程式自動發送這些HTTP請求，並從伺服器的回應中提取我們想要的資料。舉個例子，當你用爬蟲抓取某個電商網站的商品資訊時，爬蟲會先發送GET請求，伺服器回傳商品頁面的HTML內容，再用程式從HTML裡面解析出商品名稱、價格等資訊。

總結:了解這些請求與回應的原理，是寫好爬蟲的基礎。透過模擬這些流程，我們就可以利用爬蟲輕鬆抓取各種網站的資料！